Agrégation de documents XML probabilistes∗
نویسندگان
چکیده
Les sources d’incertitude et d’imprécision des données sont nombreuses. Une manière de gérer cette incertitude est d’associer aux données des annotations probabilistes. De nombreux modèles de bases de données probabilistes ont ainsi été proposés, dans les cadres relationnel et semi-structuré. Ce dernier est particulièrement adapté à la gestion de données incertaines provenant de traitement automatiques. Un important problème, dans le cadre des bases de données probabilistes XML, est celui des requêtes d’agrégation (count, sum, avg, etc.), qui n’a pas été étudié jusqu’à présent. Dans un modèle unifiant les différents modèles probabilistes semi-structurés étudiés à ce jour, nous présentons des algorithmes pour calculer la distribution des résultats de l’agrégation (qui exploitent certaines propriétés de régularité des fonctions d’agrégation), ainsi que des moments (en particulier, espérance et variance) de celle-ci. Nous prouvons également l’intractabilité de certains de ces problèmes.
منابع مشابه
Coupling Maximum Entropy and Probabilistic Context-Free Grammar Models for XML Annotation of Documents
We consider the problem of semantic annotation of semi-structured documents according to a target XML schema. The task is to annotate a document in a tree-like manner where the annotation tree is an instance of a tree class defined by DTD or W3C XML Schema descriptions. In the probabilistic setting, we cope with the tree annotation problem as a generalized probabilistic contextfree parsing of a...
متن کاملUn Système de gestion de données XML probabilistes*
Cette proposition de démonstration porte sur un système de gestion de données probabilistes semi-structurées. Le système présenté repose sur une généralisation des modèles de représentation de données incertaines en XML proposés dans la littérature et permet une interrogation efficace des données dans un sous-ensemble du langage de requêtes XPath, moyennant des techniques de calculs exacts ou d...
متن کاملAggregating Probabilistic XML
Les sources d’incertitude et d’imprécision des données sont nombreuses. Une manière de gérer cette incertitude est d’associer aux données des annotations probabilistes. De nombreux modèles de bases de données probabilistes ont ainsi été proposés, dans les cadres relationnel et semi-structuré. Ce dernier est particulièrement adapté à la gestion de données incertaines provenant de traitement auto...
متن کاملOptimisation des approximations de probabilité des requêtes en XML probabiliste
XML probabiliste est un modèle probabiliste pour les bases de données incertaines semi-structurées, avec des applications telles que l’intégration incertaine de données, l’extraction d’informations ou le contrôle probabiliste de versions. Nous explorons dans ce travail une solution efficace pour l’évaluation des requêtes tree-pattern avec jointures sur ces documents, ou, plus précisément, pour ...
متن کاملAnalyse de textures dans l'espace hyperspectral par des méthodes probabilistes. (Texture analysis in the hyperspectral space by probabilistic methods)
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2009